# -*- coding: utf-8 -*-
"""
@Time ： 2024/4/22 9:25
@Auth ： fcq
@File ：compare_trainset.py
@IDE ：PyCharm
@Motto：ABC(Always Be Coding)
"""
import pandas as pd

# 定义文件路径
file1_path =  'vast_train.csv'
file2_path = '../VAST/vast_train.csv'

# 使用pandas读取两个CSV文件
df2 = pd.read_csv(file1_path)
df1 = pd.read_csv(file2_path)

# 假设两个DataFrame使用相同的列作为唯一标识
# 如果不是这样，请根据实际情况调整下面的unique_columns
unique_columns = df1.columns.tolist()  # 使用所有列作为唯一标识

# 找出在df1中存在，但在df2中不存在的行
# 这将返回一个DataFrame，其中包含df1中独有的行
df_diff = pd.merge(df1, df2, on=unique_columns, how='outer', indicator=True).query('_merge == "left_only"').drop('_merge', axis=1)

# 获取被删除数据的索引
deleted_indices = df_diff.index.tolist()

# 打印被删除数据的索引
print(deleted_indices)